\newcommand{\requrementsForG}{$(\star) \;$} % Это чтобы ссылаться на три условия для функции штрафа
\newcommand{\Probability}{\mathbb{P}}

\chapter{Начальные сведения}
\label{first_static}
В этом разделе мы будем изучать задачу идентификации параметра для статической (не зависящей от времени) системы.

В данной главе мы поставим и исследуем задачу для произвольной статической системы. Здесь мы не получим конкретного алгоритма поиска оценки для параметра. Мы подготовим базу для решения этой задачи в частном случае линейной системы в главе \ref{linear_static}.

После прочтения главы у Вас должно сложиться общее представление о задаче и используемых инструментах.  В дальнейшем мы подробно разберем различные методы идентификации, применимые в различных ситуациях для линейной системы.

\section{Постановка задачи}
Мы будем заниматься исследованием произвольной статической системы со случайным шумом. Будем рассматривать задачу типа серого ящика. Это значит, что нам известна информация о виде зависимости выходного сигнала от параметров системы, входного сигнала и шума. Пусть выходной сигнал системы представляется в виде
\begin{equation*}
	y = g(t, u, b, n),
\end{equation*}
где 
\begin{list}{}{}
\item $g$ --- известная функция,
\item $u$ --- управление,
\item $b$ --- вектор истинных значений рассматриваемых параметров,
\item $n$ --- шум.
\end{list}

Будем рассматривать следующий класс моделей $S$, среди которых мы будем искать наилучшее приближение для исследуемой нами системы:
\begin{equation*}
	y_M = g(t, u, \beta, 0),
\end{equation*}
где $\beta$ --- вектор, наилучшим образом оценивающий вектор $b$. Отметим, что шум не учитывается в рассматриваемом наборе моделей. Легко увидеть, что наш класс моделей является {\bf параметрическим}, откуда и следует альтернативное название главы \glqq идентификация с точки зрения теории параметрического оценивания\grqq.

Пусть $y^*$ --- результат измерения (эксперимента, наблюдения). Наша задача состоит в минимизации функции штрафа (также называемой информационной функцией, функцией потерь), которая, например, может иметь такую структуру:
\begin{equation}\label{pcoff}
	G(y^* - y_M(t, \beta)) \rightarrow \min\limits_\beta.
\end{equation}
Функция потерь характеризует степень схожести выбираемой модели и реальной системы, степень нашей удовлетворённости сделанным выбором. Обычно она выбирается человеком, решающим задачу. Запись \eqref{pcoff} подчеркивает, что $G$ является в некотором смысле нормой, расстоянием между действительным и предполагаемым \footnote{При этом $G$, разумеется, совершенно не обязана удовлетворять аксиомам нормы или полунормы. С этой точки зрения можно отметить сходство функций штрафа и, например, функций Ляпунова в вопросах устойчивости.}.

В общем виде наша задача имеет вид
\begin{equation*}
	\E_{b,y}G(b, \beta) \rightarrow \min\limits_\beta.
\end{equation*}
Мы проводим усреднение по $b$ и $y$, где $y$ усредняется по множеству возможных реализаций. Перейдём к повторному матожиданию
\begin{equation*}
	\E_{b,y}G(b, \beta) = \E_y \left[ \E_b (G(b, \beta) \middle| y = y^*) \right] \rightarrow \min\limits_\beta.
\end{equation*}
Итак, мы будем решать задачу 
\begin{equation*}
	\left. \E_b (G(b, \beta) \middle| y = y^*) \right. \rightarrow \min\limits_\beta.
\end{equation*}
При нахождении минимума мы будем дифференцировать по параметру (считая $G$ непрерывной) и пользоваться необходимым условием экстремума --- обнулением в нём производной.

\section{Выбор функции потерь}
\label{func_G_properties}
Введем несколько разумных ограничений (свойств), которым должна удовлетворять функция потерь $G$. Будем обозначать их символом \requrementsForG.
\begin{enumerate}
\item G имеет минимум в точке $b=\beta$, равный нулю. $G(b, \beta) |_{\beta=b} = 0$. В остальных точках $G(b, \beta) |_{\beta \ne b} \ge 0$.
\item $G$ --- неубывающая функция при $\beta > b$ (невозрастающая при $\beta < b$)
\item $G$ --- симметричная функция относительно $b$. 

{\it
Данное требование может нарушаться в достаточно большом количестве случаев. В качестве примера можно рассмотреть функцию потерь кошки, идущей по краю крыши. Зависимость значения функции потерь от положения кошки на оси, перпендикулярной краю является несимметричной, т.к. конечный итог падения зависит от того, падает ли кошка на поверхность крыши или вынуждена приземляться после пролёта большого числа этажей.}
\end{enumerate}

Из свойств 1 и 2 следует унимодальность функции $G$. Если функция G удовлетворяет всем трём свойствам, то получаем:
\begin{equation*}
	G(b, \beta) = G(|b - \beta|),
\end{equation*}
\begin{equation}
	\E_b G(|\beta - b|) = \int G(|b - \beta|) p(b | y = y^*)db \rightarrow \min\limits_\beta. \label{mainProblem}
\end{equation}

Если бы мы знали функцию штрафа $G(\cdot)$ и условную плотность $p(b | y = y^*)$, то задача идентификации свелась бы к поиску минимума такого интеграла. Мы ещё вернемся к вопросу нахождения условной плотности в случае линейных систем. 

А сейчас рассмотрим несколько случаев, когда нам не потребуется знать всю функцию плотности и минимизировать интеграл, а достаточно знать лишь какие-нибудь точечные оценки.

% --------------------------------------------------------------
\section{Точечные оценки плотности}
Вспомним некоторые точечные оценки плотности, изученные в курсе теории вероятностей:
\begin{enumerate}
\item $\mod \xi$  --- {\bf мода}, точка, в которой функция плотности принимает максимальное значение,
\item $\med \xi$  --- {\bf медиана}, квантиль порядка $1/2$,
\item $\E \xi$  --- {\bf математическое ожидание}.
\end{enumerate}

Нормальное распределение обладает тем замечательным свойством, что для него $\mod \xi = \med \xi = \E \xi$.

\begin{task}
	Вспомнить схему, в которой появляется распределение $\mathcal{X}^2(n)$, формулу его плотности. Изобразить на одном графике плотность при различных значениях параметра. Вычислить значения моды, медианы и математического ожидания. Для некоторого значения параметра $n$ на графике плотности на оси $x$ отложить эти значения.
\end{task}

% --------------------------------------------------------------
\section{Функции штрафов, приводящие к различным точечным оценкам}
Для некоторых конкретных функций штрафов, часто встречающихся в литературе, удаётся получить решение задачи минимизации \eqref{mainProblem} в виде точечной оценки случайной величины $b$ по результатам эксперимента.
\begin{enumerate}
\item Пусть $G(|b - \beta|) = (b - \beta)^2$.

	Тогда задача минимизации принимает вид
	\begin{equation*}
		\E_b G(|b - \beta|) = \int\limits_{-\infty}^{+\infty} (b - \beta)^2 p(b | y = y^*)d b \rightarrow \min\limits_\beta.
	\end{equation*}

	Продифференцируем по параметру $\beta$. Получим
	\begin{equation*}
		2 \int\limits_{-\infty}^{+\infty} (b - \beta) p(b | y = y^*)d b = 0.
	\end{equation*}
	Отсюда
	\begin{equation*}
		\beta = \E(b | y = y^*)
	\end{equation*}
	То есть решением задачи \eqref{mainProblem} при такой функции штрафа является условное математическое ожидание.

\item Пусть $G(|b - \beta|) = |b - \beta|$.

	Тогда имеем
	\begin{equation*}
		\E_b G(|b - \beta|) = %
			\int\limits_{-\infty}^{+\beta} (\beta - b) p(b | y = y^*)d b + \int\limits_{\beta}^{+\infty} (b - \beta) p(b | y = y^*) d b.
	\end{equation*}
	После дифференцирования по параметру получим
	\begin{equation*}
		\int\limits_{-\infty}^{+\beta} p(b | y = y^*)d b - \int\limits_{\beta}^{+\infty} p(b | y = y^*) d b = 0.
	\end{equation*}
	Следовательно,
	\begin{equation*}
		\Probability (p \le \beta) = \Probability (\beta \le p).
	\end{equation*}
	То есть решением задачи \eqref{mainProblem} при такой функции штрафа является условная медиана.
	

\item Условная мода получается как решение задачи минимизации всегда, когда используется оценку максимального правдоподобия (см. следующие лекции).

\end{enumerate}

Cледствия, аналогичные случаю 1 и 2 можно получить и для более общего случая, когда функция штрафа принадлежит некоторому классу. Оказывается, если наложить на функцию штрафа упоминаемые ранее ограничения \requrementsForG и потребовать дополнительных свойств от условной плотности распределения $p(b | y = y^*)$, то можно получить результат, аналогичный рассмотренным выше. Для строгого доказательства нам понадобится

\begin{lemma}
	Пусть функции $g(x), h(x)$ --- интегрируемы, чётны и неотрицательны. Пусть, кроме того, $g(x)$ неубывает, а $h(x)$ невозрастает при $x>0$.	
	Тогда $\forall a$
	\begin{equation*}
			\int\limits_{-\infty}^{+\infty} g(x + a) h(x) d x \ge \int\limits_{-\infty}^{+\infty} g(x) h(x) d x
	\end{equation*}
	Причём равенство достигается тогда и только тогда, когда $a = 0$.
\end{lemma}
\begin{proof}
	В силу симметричности будем без ограничения общности считать, что $a > 0$. Далее
	\begin{multline*}
		\int\limits_{-\infty}^{+\infty} g(x + a) h(x) d x - \int\limits_{-\infty}^{+\infty} g(x) h(x) d x = \int\limits_{-\infty}^{+\infty} [g(x + a) - g(x)] h(x) d x = \\ 
		= \int\limits_{-\infty}^{-a/2} [g(x + a) - g(x)] h(x) d x + \int\limits_{-a/2}^{+\infty} [g(x + a) - g(x)] h(x) d x = \\
		= \left\{ \text{замена в первом интеграле: } x = -x, \text{замена во втором интеграле: } x = x - a; \right\} = \\
		= \int\limits_{a/2}^{+\infty} [g(x - a) - g(x)] h(x) d x + \int\limits_{a/2}^{+\infty} [g(x) - g(x - a)] h(x - a) d x = \\
		\int\limits_{a/2}^{+\infty} [g(x) - g(x - a)] [h(x - a) - h(x)] d x \ge 0
	\end{multline*}
	Последнее неравенство непосредственно вытекает из условий, накладываемых на функции $g(x)$ и $h(x)$.
\end{proof}

Теперь мы готовы доказать, что верна
\begin{theorem}
	Пусть плотность $p(b | y = y^*)$ симметрична относительно математического ожидания $m$ и не возрастает при $b \ge m$. Пусть $G(b, \beta)$ удовлетворяет условиям \requrementsForG. Тогда наилучшая оценка $\hat{\beta} = m$.
\end{theorem}
\begin{proof}
	Путём сдвига добьемся $m = 0$.
	Далее
	\begin{multline*}
		\E_b \{ G(|b - \beta|) | y = y^* \} = \int\limits_{-\infty}^{+\infty} G(|b - \beta |) p(b | y = y^*)d b = \\
		= \left\{ t = b - m \right\} = \int\limits_{-\infty}^{+\infty} G(t + m - \beta) p(t + m | y = y^*)d b \ge \\
		\ge \left\{ \text{лемма} \right\} \ge \int\limits_{-\infty}^{+\infty} G(|t|) p(t+m | y = y^*)d b
	\end{multline*}
	
	Равенство достигается при $\hat{\beta} = m$.
\end{proof}

 Заметим, что в теореме неявно предполагается, что $\mod = \med = m$ в силу симметричности плотности относительно математического ожидания.
 
 Ищут данную оценку часто в качестве моды, т.к. для этого существуют удобные численные методы.